120分的转录组考题,你能得多少
每个题目判分标准以0.1
计。未标注选答的为必答题,必答题一题不答则不合格。
理论题目 (50分)
理论题目在授课的理论文档里都有提到,请按自己的理解重新组织语言,不要求与文档完全一致,主要是考核自己的理解,无标准答案。但纯粹拷贝粘贴不算分。
说出至少5种高通量测序技术的应用,并简要描述其在科研中的用途? (2分) (选答)
转录组测序可以解决的问题有哪些?(2分)
转录组项目开展前需要考虑哪些问题? (6分)
转录组测序同一样品不同重复之间相关性多少合适? 分别叙述不同的需求可用reads数多少合适? (3分)
描述下常规转录组测序的过程,从样本准备到获取测序数据中经历的步骤? (6分)
描述下常规转录组分析的流程,列举每步可用的工具、每步分析的意义? (10分)
基因组和转录组测序序列比对使用的工具有什么不同?转录组reads比对回基因组时需要特殊地考虑什么?(4分)
STAR为了提高比对率做了哪些容错机制? (4分)
StringTie和Cufflinks是做什么的?什么时候会用到?(2分)
Illumina测序时什么情况下会测到接头序列? (3分)
链特异文库是什么?可以解决什么问题?(3分)
Illumina测序时测序簇 (cluster)是如何生成的?生成测序簇的意义是什么?(2分) (选答)
双端测序的左端和右端reads分别测序的什么,是否来源于同一片段? (2分)
实战题目 (70分)
提供完成操作的代码,并解释。代码只拷贝,不解释不算分。
ct@ehbio:~/data$
中ct
、ehbio
、~/data
、$
各代表什么? (1分)写代码用
Fastqc
评估测序质量?并解释什么样的质量值是可以接受的,GC含量正常和异常的结果有什么不同? 导致GC含量异常的原因是什么? (4分)写代码去除双端测序reads低质量碱基和接头序列,并解释各个参数的含义?(3分)
为什么一般只使用去除低质量碱基和接头后仍然成对的reads做后续分析? (2分)
写代码完成基因组索引的构建,并解释基因组索引构建的意义是什么? (2分)
解释环境变量是什么?设置环境变量的意义是什么?如何设置环境变量?(3分)
写代码进行序列比对,并解释每个参数的含义? (2分)
如何从比对结果中获取比对reads数和比对率?怎么判断比对率是否合适? (2分)
解释STAR或HTSeq是如何计算基因的表达量 (reads count)的,程序是根据注释文件中的哪些信息来计算某个基因的reads数的,如果一个基因有多个转录本怎么计算基因表达量 (3分)
写代码转换BAM文件为样品间可比的bigWig文件,并说明bigWig文件的用途? (2分)
写代码评估比对质量,包括评估基因5’-3’测序均一度评估、reads在基因组标志区域评估和饱和度评估,并解释每个参数的意义? (3分)
用RSEM计算基因表达TPM值,并解释TPM值、FPKM值、与DESeq2标准化后的值、原始reads count的区别? (4分)
写R代码读入reads count文件、样品分组信息文件,并解释参数的含义? (1分)
写代码产生DESeqDataSet数据集,并解释参数的含义? (3分)
解释函数
DESeq
运行时函数内部都做哪些数据处理和操作? (5分)写代码从DESeqDataSet数据集获取标准化后的数据、标准化后取对数的数据,并解释用到的函数的作用? (3分)
写代码在DESeq中做主成分分析,并解释主成分分析的结果? (2分)
写代码计算样品相关性并完成相关性热图绘制,解释下述哪种矩阵适合做相关性分析: 原始reads count、标准化后的矩阵、标准化后对数处理的矩阵?(4分)
写代码提取两组样品中的差异基因分析结果,并解释用到的函数和变量的意义? (3分)
写代码绘制火山图,并解读火山图展示的信息是什么? (1分)
写代码绘制差异基因热图,并解读此热图? (2分)
绘制热图时什么时候做行聚类、什么时候做列聚类、按行标准化数据的意义是什么、结果怎么解读? (2)
如何识别样品中是否有批次效应? (2分) (选答)
描述GO富集分析的原理,并给出GO富集分析需要的数据的格式? (1分)
描述GSEA富集分析的原理,并给出GSEA富集分析需要的数据的格式? (1分)
GO富集分析结果的泡泡图怎么解释? (1分)
转录本拼装的意义是什么? 不同样品拼装结果最后需要merge在一起的意义是? (2分)
DESeq2中是如何处理批次效应的? (2分) (选答)
说出一起学习的小伙伴的名字. (3分)
点击阅读原文,获取学习视频。(视频分三档,内容一样,周期不同,价格不同)